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Beschreibung 



Recherchensystem und Verfahren zur Ermittlung von Informationen aus einer 
Datenbank, insbesondere aus dem World-Wide-Web 

Die Erfindung bezieht sich auf ein Recherchensystem zur Ermittlung von 
Informationen aus einer Datenbank unter Nutzung einer Mehrzahl von 
Suchmaschinen. Sie betrifft weiter ein Verfahren zur Ermittlung von Informationen 
aus einer Datenbank, insbesondere aus dem World-Wide-Web, unter Nutzung 
eines deraiiigen Recherchensystems. 

In komplexen Datenbanken Oder auch im weltumspannenden Computernetz 
(„World-Wide-Web") wird eine enorme Menge an Informationen bereitgehalten, 
die ein Benutzerzu Recherchezwecken mehr oder weniger gezielt abrufen kann. 
Urn dabei Informationen aus der grolien Informationsmenge heraus gezielt 
nutzbar machen zu konnen, kommen so genannte Suchmaschinen zum Einsatz, 
die gerade bei der Informationsbeschaffung aus dem World-Wide-Web teiiweise 
erhebliche Verbreitung erfahren haben. Bei derartigen Suchmaschinen wird dem 
Benutzer Qblicherweise Qber ein Ein-/Ausgabemodul ein Anfragenfenster zur Ver- 
fiigung gestellt, Ober das gezielte Such- oder Recherchebegriffe vorgegeben wer- 
den konnen. Anschlieftend durchsucht die Suchmaschine die Informationsbasis 
der Datenbank bzw. des World-Wide-Web nach geeigneten SchlQssel- oder Key- 
wdrtern. Die daraufhin aufgefundenen Antwortdatensatze werden Qblicherweise 
von der jeweiligen Suchmaschine hinsichtlich ihrer Relevanzfur den vorgegebe- 
nen Suchauftrag kategorisiert und dem Benutzer in der Art einer Trefferliste in 
nach ihrer Relevanz geordneter Reihenfolge zur VerfGgung gestellt. 

Zwischenze'rtlich haben sich eine Vielzahl derartiger Suchmaschinen etabliert, die 
sich hinsichtlich ihrer Leistungsfahigkeit, Zuverlassigkeit und/oder der 
beriicksichtigten Informationsbasis in der Art einer thematischen Spezialisierung 
voneinander unterscheiden konnen. Gerade weil aber aufgrund der Vielzahl der 
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beispielsweise im World-Wide-Web angebotenen Informationen beim Betrieb 
einer derartigen Suchmaschine eine gewisse Schwerpunktbildung oder 
Spezialisierung einzelner Suchmaschinen erforderlich sein kann, kann die Qualitat 
der Suchergebnisse abhangig von der vorgegebenen Suchanfrage fUr einzelne 
Suchmaschinen in gewissen Bandbreiten variieren. 

Der Erfindung liegt daher die Aufgabe zugrunde, ein Recherchensystem zur 
Ermittlung von Informationen aus einer Datenbank, insbesondere aus dem World- 
Wide-Web, anzugeben, das zur Erzielung einer gleichbleibend hohen 
Recherchequalitat im besonderem Made zur gemeinsamen und/oder 
gleichzeitigen Nutzung einer Mehrzahl von Suchmaschinen besonders geeignet 
ist. Des Weiteren soli ein Verfahren zur Ermittlung von Informationen aus einer 
Datenbank, insbesondere aus dem World-Wide-Web, unter Nutzung eines 
derartigen Recherchensystems angegeben werden. 

Bezuglich des Recherchensystems wird diese Aufgabe erfindungsgemafi gelost 
mit einem Integrationsmodul, das die von den Suchmaschinen gelieferten, jeweils 
eine Mehrzahl von Ergebnisdatensatzen umfassenden Ergebnisdaten in ein 
gemeinsames Datenformat konvertiert und anschliefiend unter Ruckgriff auf in 
einem im Speichermodul hinterlegte Priorisierungsparameter jedem 
Ergebnisdatensatz einen Relevanzkennwert zuordnet. 

Die Erfindung geht dabei von der Oberlegung aus, dass zur Erreichung 
gleichbleibend hoher Recherchequalitaten grundsatzlich eine Mehrzahl von 
altemativen Suchmaschinen eingesetzt werden sollte, so dass 
suchfragenabhangige Qualitatsmangel wechselweise ausgeglichen werden 
kannen. Gerade beim Einsatz einer Mehrzahl von Suchmaschinen fOr eine 
Suchanfrage ist jedoch damit zu rechnen, dass eine grofce Vielzahl an 
Recherchetreffern oder Ergebnisdatensatzen von der Gesamtheit der 
Suchmaschinen generiert wird. Fur eine benutzerfreundliche und gezielte 
Auswertung dieser Ergebnisse sollte eine alien Ergebnissen gemeinsame 
Relevanzkennung vergeben werden, so dass in fOr den Benutzer 
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nachvollziehbarerweise eine systematische Ordnung samtlicher 
Rechercheergebnisse nach vorgegebenen Relevanzkriterien erfolgen kann. 
Insbesondere sollte dabei ermoglicht sein, die nach vorgegebenen Kriterien als 
relevantest erachteten Ergebnisse zuerst zu prasentieren, so dass der Benutzer 
sich auf die wesentlichen Rechercheergebnisse konzentrieren kann. Um dies zu 
ermoglichen, ist zunachst die Konvertierung der eingehenden Datensatze in ein 
gemeinsames Datenformat vorgesehen, so dass eine gemeinsame 
Datenauswertung und -strukturierung erm6glicht wird. Anschliefiend ist die 
Gliederung der aufgefundenen Ergebnisdatensatze im Sinne einer gemeinsamen 
Relevanzstruktur vorgesehen. Diese Funktion der Zusammenfugung und Konso- 
lidierung von Ergebnisdatensatzen aus verschiedenen Quellen wird durch das 
Integrationsmodul erfullt. 

Die hierarchische Kategorisierung der aufgefundenen Ergebnisdatensatze durch 
Zuordnung eines spezifischen Relevanzkennwerts kann dabei nach vom Benutzer 
odereinem Betreiber vorgegebenen Priorisierungskriterien erfolgen. Insbesondere 
konnte vorgesehen sein, bei der Auswertung der gelieferten Ergebnisse bestimm- 
ten Suchmaschinen generell und standardisiert eine erhohte Relevanz zuzuord- 
nen, beispielsweise weil fQr einen bestimmten Typus einer Suchanfrage bekannt 
ist, dass bestimmte Suchmaschinen in der Regel vergleichsweise hohe 
Recherchequalitat liefern. Um dies zu ermoglichen, sind die 
Priorisierungsparameter vorteilhafterweise abhangig von der jeweiligen 
Suchmaschine gewahlt, so dass beispielsweise anhand des fQr eine bestimmte 
Suchmaschine hinterlegten Priorisierungskennwerts festgestellt werden kann, 
dass ein von dieser Suchmaschine gelieferter Ergebnisdatensatz mit einem 
vergleichsweise hohen Relevanzkennwert versehen wird. 

Die Vorgabe einer spezifischen Priorisierung bei der Berilcksichtigung der 
Suchmaschinen kann dabei vom Benutzer nach Art und Umfang vorgegeben sein. 
Innerhalb der von einer Suchmaschine gelieferten Ergebnisdatensatze kann die 
so genannte interne Priorisierung anschlieftend auf der Grundlage der von der 
Suchmaschine bereits gelieferten Priorisierung erfolgen. Dazu wird in weiterer 
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Oder alternativer vorteilhafter Ausgestaltung der Relevanzkennwert fur den je- 
weiiigen Ergebnisdatensatz unter Bertlcksichtigung eines von der jeweiligen 
Suchmaschine bereitgestellten Ausgangsrelevanzkennwerts vom 
Integrationsmodul ermittelt. 

Dabei kann insbesondere in der Art einer n dynamischen Priorisierung" eine Nor- 
malisierung von den jeweiligen Suchmaschinen bereits mitgelieferter 
Ausgangsrelevanzkennwerte vorgesehen sein, bei der der von der jeweiligen 
Suchmaschine als relevantest angesehene Ergebnisdatensatz mit einem 
vorlaufigen Relevanzkennwert von beispielsweise 100 % versehen wird, wobei die 
von der jeweiligen Suchmaschine bereits als vergleichsweise weniger relevant 
eingestuften weiteren Ergebnisdatensatze mit einem entsprechend abgestuften 
Relevanzkennwert versehen werden. Bei dieser Art der Auswertung und 
Priorisierung ist somit in der Art einer Gleichberechtigung sSmtlicher eingesetzter 
Suchmaschinen ein direkter Quervergleich einzelner Ergebnisdatensatze 
ermoglicht. Zusatzlich oder alternativ kann aber auch vorgesehen sein, dass 
bereits bei der Normalisierung, also bei der Bildung der Bezugsgrdde fur den von 
der jeweiligen Suchmaschine als relevantest angesehenen Ergebnisdatensatz, ein 
suchmaschinenspezifischer Kennwert mit vorgegeben wird, durch den der 
Relevanzkennwert des von der jeweiligen Suchmaschine als relevantest 
angesehenen Ergebnisdatensatzes suchmaschinenspezifisch vorgegeben wird. 
Durch eine derartige suchmaschinenspezifische Vorgabe sind somit 
Relativwichtungen zwischen einzelnen Suchmaschinen mOglich, in die 
insbesondere auch Erfahrungswerte uber die generelie ZuverlSssigkeit der 
jeweiligen Suchmaschine und/oder auch themen- oder suchanfragenabhangige 
Erkenntnisse uber die jeweilige Suchmaschine mit einflielien kflnnen. 

Das Integrationsmodul ist zur gemeinsamen Auswertung der von den 
verschiedenen Suchmaschinen gelieferten Ergebnisdatensatzen ausgelegt, wobei 
zunSchst eine Konvertierung der einzelnen Ergebnisdatensatze in ein 
gemeinsames und somit gemeinsam auswertbares Datenformat vorgesehen ist. 
Dazu ist das Integrationsmodul dafur ausgelegt, die spezifische, von der 
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jeweiligen Suchmaschine eingesetzte Syntax oder deren Datenformat auswerten 
und gegebenenfalls umwandeln zu kOnnen. Urn dies zu ermoglichen, ist das 
Integrationsmodul vorteilhafterweise mit einem zweiten Speichermodul 
verbunden, in dem Syntaxdaten fQr die einzelnen Suchmaschinen hinterlegt sind. 
Anhand dieser Syntaxdaten kann sodann die suchmaschinenspezifische 
Datenkonvertierung vorgenommen werden. 

In weiterer vorteilhafter Ausgestaltung ist zusatzlich zum Integrationsmodul auch 
ein Distributionsmodul vorgesehen, das einen im gemeinsamen Datenformat 
eingehenden Suchauftrag geeignet auf die einzelnen zum Einsatz vorgesehenen 
Suchmaschinen aufteilt. Dazu ist das Distributionsmodul, das zweckmafiigerweise 
uber ein gemeinsames Pufferspeichermodul mit dem Integrationsmodul 
kommuniziert, vorteilhafterweise daftir ausgelegt, den jeweiligen Suchauftrag 
geeignet in eine fur die jeweilige Suchmaschine verarbeitbare Syntax oder ein 
entsprechendes Datenformat umzuwandeln. 

Urn eine zuverlassige Zuordnung der gelieferten Ergebnisse zum jeweiligen Such- 
auftrag auch dann zu ermoglichen, wenn in enger zeitlicher Reihenfolge eine ver- 
gleichsweise gro&e Vielzahl an Suchauftragen zu bearbeiten ist, was insbesonde- 
re bei unterschiedlichen Reaktionszeiten der Suchmaschine zu unterschiedlichen 
Wartezeiten auf die Ergebnisse und somit zu zeitlichem Oberlapp zwischen ver- 
schiedenen Suchauftragen fuhren konnte, ist dem Integrationsmodul und dem 
Distributionsmodul vorteilhafterweise ein gemeinsames Pufferspeichermodul zu- 
geordnet. Im Pufferspeichermodul werden zweckmafiigerweise fQr jeden Such- 
auftrag charakteristische Identifikationsdaten, beispielsweise eine Identifikations- 
kennummer, hinterlegt, wobei die einzelnen, an die Suchmaschinen direkt ausge- 
gebenen spezifizierten Suchauftrage mit einer entsprechenden Kennnummer ver- 
sehen sind. Bei den von den Suchmaschinen gelieferten Antworten ist dann im 
Integrationsmodul durch einen RQckgriff auf die im Pufferspeicher hinterlegten 
charakteristischen Identifikationsdaten eine eindeutige Zuordnung der Ergebnis- 
datensatze zum jeweiligen Suchauftrag ermoglicht, so dass eine konsolidierte und 
konsistente Auswertung der eingehenden Ergebnisse ermoglicht ist. 
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Das Distributionsmodul ist vorteilhafterweise spezifisch dafQr ausgelegt, den 
eingehenden Suchauftrag datenseitig in eine fOr die jeweiligen Suchmaschinen 
verarbeitbares Datenformat oder eine Syntax zu konvertieren. Dazu ist auch das 
Distributionsmodul vorteilhafterweise mit dem zweiten Speichermodul verbunden, 
in dem Syntaxdaten ftir die Suchmaschinen hinterlegt sind. Durch gezielte 
Wartung und Pflege des zweiten Speichermoduls ist somit auf besondere Weise 
ermSglicht, gegebenenfalls Aktualisierungen der von den Suchmaschinen 
verwendeten Syntax oder auch die Hinzufugung oder LOschung vollstandiger 
Suchmaschinen auf besonders einfache Weise vorzunehmen. 

In weiterer vorteilhafter Ausgestaltung ist das Distributionsmodul eingangsseitig 
Qber ein Filtermodul mit einem Ein-/Ausgabemodul verbunden, uber das vom 
Benutzer einzelne Suchauftrage vorgebbar sind. Das Filtermodul kann dabei 
insbesondere dafur ausgelegt sein, anhand einstellbarer oder individuell 
vorgebbarer Filterkriterien bestimmte Suchanfragen ganz zu unterdrticken oder 
beispielsweise lander- oder kundenspezifische Individualvorgaben hinzuzufOgen. 
Dabei kann insbesondere auch vorgesehen sein, anhand der Art der Anfrage 
gezielt einzelne, als besonders geeignet erkannte Suchmaschinen fUr die 
nachfolgende Bearbeitung des Suchauftrags vorzugeben. Das Filtermodul kann 
somit insbesondere auch dafur ausgelegt sein, abhangig von der jeweiligen 
Suchanfrage oder von deren thematischem Schwerpunkt eine Vor- oder 
Grobauswahl der einzusetzenden Suchmaschinen zu treffen und somit eine 
Grobstrategie fdr die nachfolgende Strategie vorzugeben. 

GrundsStziich konnen das Distributionsmodul und das Integrationsmodul als 
eigenstandige Einheiten, beispielsweise auf Software- oder auf Hardwarebasis, 
ausgefGhrt sein. Eine besonders kompakte und somit gunstige Bauweise ist dabei 
erreichbar, indem das Distributionsmodul vorteilhafterweise mit dem 
Integrationsmodul in eine gemeinsame Einheit integriert ist. 
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Es ist weit verbreitete Praxis, gerade bei der DurchfUhrung von Recherchen im 
Internet Oder World-Wide-Web, dass dem Benutzer gemeinsam mit den auf seine 
Suchanfrage hin generierten Trefferlisten Werbeanzeigen, so genannte 
„Banners" f mit angezeigt werden. Dabei werden in Reaktion auf eine Suchanfrage 
von einem auch als „Ad-Server" bezeichneten Werbemitteldatenbank gemeinsam 
mit den Ergebnissen zufailig aus den dort hinterlegten Banners ausgewahlte 
Datensatze mit ubermittelt, die anschliefSend auf dem Ein-/Ausgabemodul zur 
Anzeige gebracht werden. Bei einem derartigen System erfolgt die HinzufQgung 
der individuellen Banners jedoch Qblicherweise unspezifiziert und insbesondere 
ohne Bezug auf das vom Benutzer durch die Suchanfrage vorgegebene Thema, 
so dass das Benutzerinteresse am jeweiligen Werbemittel nur vergleichsweise 
gering ist. In besonders vorteilhafter Weiterbildung des oben genannten Systems 
sind jedoch nunmehr das Distributions- und das Integrationsmodu! datenseitig mit 
einer Werbemitteldatenbank verbunden, die als Antwortdatensatz auf eine 
eingehende Suchanfrage einen hinsichtlich eines Kennungssignals an die 
Suchanfrage angepassten Datensatz liefert. Mit anderen Worten: Aufgrund der 
ohnehin vorgesehenen, vergleichsweise qualifizierten Auswertung der 
vorgegebenen Suchanfrage, die Qber die entsprechende Konvertierung im 
Distributionsmodul ermoglicht wird, ist nunmehr die Erzeugung einer 
beispielsweise inhalts- oder themenbezogenen Kennung fUr die Suchanfrage 
ermdglicht, die bei einer Weiterleitung der Suchanfrage auf die 
Werbemitteldatenbank eine gezielte Selektion von hinsichtlich des 
Kennungssignals, also beispielsweise hinsichtlich des bearbeiteten Thomas, 
besonders geeigneten Werbedatensatzes ermoglicht. Durch eine derartige 
gezielte Zuordnung der als Antwortsignal mitgegebenen Werbemitteldatensatze 
ist somit eine deutlich erhohte Aufmerksamkeit beim Benutzer gegenDber der 
eingesetzten Werbemittel erreichbar. 

BezQglich des Verfahrens wird die genannte Aufgabe unter Nutzung des 
genannten Recherchensystems gelost, indem die von den Suchmaschinen 
gelieferten, jeweils eine Mehrzahl von Ergebnisdatensatzen umfassenden 
Ergebnisdaten in ein gemeinsames Datenformat konvertiert werden, wobei 
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anschlieftend unter Ruckgriff auf in einem Speichermodu! hinterlegte 
Priorisierungsparameter jedem Ergebnisdatensatz ein Relevanzkennwert 
zugeordnet wird. Gber das Integrationsmodul ist somit vorgesehen, fur die 
gelieferten Ergebnisdatensatze ein konsolidiertes und konsistentes 
Relevanzsystem zu erzeugen, in dem die einzelnen Ergebnisdatensatze relativ 
zueinander im Hinbiick auf vorgegebene Relevanzkriterien geeignet positioniert 
sind. 

Vorteilhafterweise werden die Priorisierungsparameter dabei abhangig von der 
jeweiligen Suchmaschine gewahlt, wobei der Relevanzkennwert in alternativer 
Oder zusatzlicher vorteilhafter Weiterbildung ftir den jeweiligen Ergebnisdatensatz 
unter Berucksichtigung eines von der jeweiligen Suchmaschine bereitgestellten 
Ausgangsrelevanzkennwerts ermittelt wird. 

Vorteilhafterweise wird ein im gemeinsamen Datenformat eingehender 
Suchauftrag fGr jede ausgewahlte Suchmaschine in deren spezifisches 
Datenformat umgewandelt und anschlieliend an diese ausgegeben. In . alternativer 
Oder zusatzlicher vorteilhafter Ausgestaltung wird ein uber ein Ein-/Ausgabemodul 
vorgegebener Suchauftrag vor seiner weiteren Bearbeitung einer Filterung 
unterzogen. 

Vorteilhafterweise wird ein Suchauftrag zusStzlich zu den Suchmaschinen an eine 
Werbemitteldatenbank ausgegeben, wobei ein von dieser eingehender 
Antwortdatensatz mittels eines Kennungssignals der jeweiligen Suchanfrage 
zugeordnet wird. Durch das Kennungssignal ist dabei insbesondere ermoglicht, 
den Antwortdatensatz hinsichtlich vorgebbarer Kriterien, beispielsweise 
hinsichtlich verwendeter Inhalte Oder Themen, an die jeweilige Suchanfrage 
anzupassen, so dass im Ergebnis dem Benutzer gemeinsam mit seinen 
Suchergebnissen ein thematisch zur Suchanfrage passender Werbetrager 
angeboten wird. 
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Die mit der Erfindung erzielten Vorteile bestehen insbesondere darin, dass durch 
die Verwendung des Integrationsmoduls, dass eingehende Ergebnisdatensatze 
auf ein gemeinsames Datenformat konvertiert und anschlieBend eine relative 
Gewichtung und Priorisienjng der Ergebnisdatensatze untereinander durch 
Vergabe eines „globalen M Relevanzkennwerts eine konsistente gemeinsame 
Nutzung einer Mehrzahl von Suchmaschinen ermoglicht ist. Durch das mit dem 
Integrationsmodul kommunizierende Distributionsmodul istweiterhin 
gewahrleistet, dass unter Ruckgriff auf im Speichermodul hinterlegte, 
suchmaschinenspezifische Daten wie beispielsweise Syntaxdaten eine gezielte 
Ansprache verschiedenartiger Suchmaschinen mit einer gemeinsamen 
Suchanfrage ermSglicht ist, wobei ebenso eine konsolidierte gemeinsame 
Auswertung der von den angesprochenen Suchmaschinen gelieferten Ergebnisse 
unter Berucksichtigung von deren spezifischer Syntax ermOglicht ist. 

Ein Ausftlhrungsbeispiel der Erfindung wird anhand einer Zeichnung naher 
erl§utert. Darin zeigen: 

Fig. 1 schematisch ein Recherchensystem zur Ermittlung von 

Informationen aus einer Datenbank, 

Fig. 2 eine konzeptionelle Darstellung des Recherchensystems nach Fig. 1 , 

Fig. 3 eine schematische Aufstellung der im Recherchensystem nach 

Fig. 1 ablaufenden Prozesse, 

Fig. 4 eine alternative Darstellung fur das Gesamtsystem nach Fig. 1 , 

Fig. 5 schematisch die Struktur der Administration des Recherchensystems 

nach Fig. 1, 



Fig. 6 



ein Schema fur eine Antrage an eine Mehrzahl von Suchmaschinen, 
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Fig. 7 ein Schema fUr eine verteilte Abfrage und ZusammenfQhrung der 

Ergebnisse, 

Fig. 8 ein Schema fur verschiedene Suchmodi im Recherchensystem nach 

Fig. 1, 

Fig. 9 ein Schema fdr eine Filterung von Suchanfragen, 

Fig. 10 eine schematische Darstellung der im Recherchensystem nach 
Fig. 1 verwendeten Module, 

Fig. 1 1 schematisch eine Darstellung der Struktur eines Filter- 
/Interpretermoduls, 

Fig. 12 schematisch eine Struktur eines Integrationsmoduls, 

Fig. 13 schematisch die Struktur eines Server-Engine-Moduls, 

Fig. 14 schematisch ein dynamisches Model fGr einen Suchprozess, 

Fig. 15 ein Ablaufschema fGr eine Initialisierung einer Server-Engine, 

Fig. 1 6 ein Ablaufschema fur die Bearbeitung einer Suchanfrage, 

Fig. 1 7 ein Ablaufschema fGr die Vorbereitung von Adaptern fur eine 
Suchanfrage, und 

Fig. 18 ein Schema fGr eine Admin-Anwendung des Recherchensystems 
nach Fig. 1. 

Das Recherchensystem 1 gemafi Fig. 1 ist zur Ermittlung von Informationen aus 
einer komplexen Datenbank, insbesondere aus dem Internet, dem World-Wide- 
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Web oder einem anderen Index, mit besonders hoher Recherchenqualitat 
ausgelegt. Dazu ist das Recherchensystem 1 datenseitig mit einer Mehrzahl von 
Suchmaschinen 2 verbunden, wie die derzeit zur gezielten Durchsuchung des 
Internets weit verbreitet im Einsatz sind. 

Urn dabei den gleichzeitigen und gemeinsamen Einsatz einer Mehrzahl von Such- 
maschinen 2 zu ermoglichen, umfasst das Recherchensystem 1 in einer zentralen 
Auswerteeinheit 4 ein Integrationsmodul 6, dem die von den Suchmaschinen 2 
gelieferten Trefferlisten oder Ergebnisdaten in Form von Ergebnisdatensatzen E 
zufOhrbar sind. Das Integrationsmodul 6 stellt dabei sicher, dass eine 
gemeinsame, konsistent priorisierte Auswertung der von den verschiedenen 
Suchmaschinen 2 gelieferten Ergebnisdatensatze E ermoglicht ist. 

Dazu ist das Integrationsmodul 6 dazu ausgelegt, die eintreffende 
Ergebnisdatensatze E zunachst in ein gemeinsames Datenformat zu konvertieren, 
so dass eine konsolidierte Auswertung ermSglicht ist. Urn dem Benutzer dabei 
eine gezielte Auswertung der moglicherweise grollen Anzahl von Informationen zu 
ermoglichen, ist die konsolidierte Priorisierung und Relevanzkennung der 
einzelnen Ergebnisdatensatze E vorgesehen, wobei nach vorgegebenen 
Relevanzkriterien samtlichen Ergebnisdatensatzen E untereinander vergleichbare 
Relevanzkennwerte zugeordnet werden. Urn dies zu ermdglichen, ist das 
Integrationsmodul 6 mit einem Speichermodul 8 verbunden, in dem fur die 
Zuweisung der Relevanzkennwerte relevante Priorisierungsparameter P hinterlegt 
sind. 

Bei der Priorisierung kann insbesondere vorgesehen sein, die nach Vorgabe 
durch einen Benutzer oder durch einen Betreiber ausgewahlte Suchmaschinen 2 
grundsatzlich mit einer vergleichsweise hohen Priorisierung und somit einem 
vergleichsweise hohen Relevanzkennwert zu versehen. In diesem Fall erfolgt die 
Wahl der Priorisierungsparameter abhangig von der jeweiligen Suchmaschine 2. 
Alternativ oder zusatzlich kann vorgesehen sein, in der Art einer Normalisierung 
die von einer Suchmaschine 2 gelieferten Ergebnisdatensatze E hinsichtlich ihres 
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Relevanzkennwerts zunachst auf denjenigen Ergebnisdatensatz E zu normieren, 
der bereits von der jeweiligen Suchmaschine 2 aus mit dem hochsten 
Reievanzkennwert versehen wurde. In der Art einer prozentualen Darstellung 
konnte dies somit bedeuten, dass der von der jeweiligen Suchmaschine 2 als am 
relevantesten erkannte Ergebnisdatensatz E mit einem vorlSufigen Reievanzkenn- 
wert von 100 % versehen wird, wobei die anderen Ergebnisdatensatze E dieser 
Suchmaschine 2 entsprechend ihrem von der Suchmaschine 2 zugewiesenen 
Ausgangsrelevanzkennwert einen entsprechend abgestaffelten Reievanzkennwert 
erhalten. Wenn dies fur s§mtliche Suchmaschinen 2 gleichgewichtig durchgefOhrt 
wird, erfolgt somit eine relative Priorisierung der Ergebnisdatensatze E 
unterschiedlicher Suchmaschinen 2 im Wesentlichen anhand ihrer relativen 
Relevanz im Hinblick auf den von der jeweiligen Suchmaschine 2 als am 
relevantesten eingestuften Ergebnisdatensatz E. 

Zusatzlich kann bei den Priorisierungsparametern P aber auch ein 
suchmaschinenspezifischer Kennwert hinterlegt sein, der allgemein Oder abhangig 
von der jeweiligen Suchanfrage der jeweiligen Suchmaschine 2 einen 
Verlasslichkeitskennwert zuordnet. 

Die Auswerteeinheit 4 umfasst weiterhin ein Distributionsmodul 10, das Qber einen 
Pufferspeicher 12 mit dem Integrationsmodul 6 kommuniziert. Das 
Distributionsmodul 10 ist weiterhin mit einem zweiten Speichermodul 14 
verbunden, in dem fur die Suchmaschinen 2 charakteristische Datensatze, 
insbesondere charakteristisch fur deren Datenformat oder Syntax, hinterlegt sind. 
Eingangsseitig ist das Distributionsmodul 10 uberein Filtermodul 16 mit einem 
Ein-/Ausgabemodul 18 verbunden, das seinerseits eingangsseitig mit dem 
Integrationsmodul 6 verbunden ist. Das Ein-/Ausgabemodul 18 kann dabei 
insbesondere als herkommliche Bedieneinheit, umfassend eine Tastatur und ein 
Ausgabemittel wie einen Bildschirm, ausgestaltet sein. 

Bei der Bearbeitung einer vom Benutzer Qber das Ein-/Ausgabemodul 18 
vorgegebenen Suchanfrage erfolgt zunachst eine Filterung dieser Anfrage im 
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Filterbaustein 16. Dabei kann beispielsweise die Eliminination von Suchanfragen 
eines bestimmten Kriterium vorgesehen sein oder es kOnnen beispielsweise 
lander- oder regionenspezifische Vorgaben fOr die Bearbeitung der Suchanfrage 
berticksichtigt werden. Des Weiteren erfolgt im Filtermodul 16 eine Vorauswahl 
der fur die jeweiligen Suchanfragen als geeignet erkannten Suchmaschinen 2, so 
dass das Filtermodul 16 in der Art einer Grobstrategie bereits die mit der 
Suchanfrage endgultig zu betrauenden Suchmaschinen 2 mit vorgibt. 

Die solchermaften gefilterte Suchanfrage 2 wird anschliefcend dem 
Distributionsmodul 10 zugefQhrt, das unter RQckgriff auf die im zweiten 
Speichermodul hinterlegten suchmaschinenspezifischen Informationen und 
insbesondere Syntaxkennwerte die jeweilige Suchanfrage in eine Vielzahl 
individualisierter Suchanfragen in den fllr die ausgewahlten Suchmaschinen 2 
passenden Datenformate umsetzt. Anschlieliend gibtdas Distributionsmodul 10 
die individualisierten Suchanfragen an die ausgewahlten Suchmaschinen 2 weiter, 
wobei in der Art einer Protokollierung und zur Verwaltungserleichterung im 
Pufferspeicher 12 ein Profil der Suchanfrage gemeinsam mit einer diese 
identifizierenden Kennung hinterlegt wird. 

Die durch die ZufQhrung der individualisierten Suchanfrage gestarteten 
Suchmaschinen 2 absolvieren anschlieBend ihr Suchprogramm im World-Wide- 
Web und stellen ihre Antwortsignale, beispielsweise in Form von Trefferlisten, in 
denen die aufgefundenen Ergebnisdaten als Ergebnisdatensatze E nach der 
durch die jeweilige Suchmaschine 2 erkannten Relevanz geordnet aufgelistet 
sind. Anhand der charakteristischen Identifikationsdaten fOr die jeweilige 
Suchanfrage werden die Ergebnisdatensatze E sodann im Integrationsmodul 6 
der jeweiligen Suchanfrage wieder zugeordnet, so dass eine gezielte Auswertung 
auch bei zeitlich sich uberschneidenden Suchvorgangen ermoglicht ist. 

Im Integrationsmodul 6 erfolgt zudem, gegebenenfalls ebenfalls unter RQckgriff 
auf die im zweiten Speichermodul 14 hinterlegten Syntaxinformationen, eine 
Konvertierung der Ergebnisdatensatze E in das gemeinsame Datenformat. 
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Anschliefcend erfolgt unter ROckgriff auf die im Speichennodul 8 hinterlegten 
Priorisierungsparameter P die Erzeugung eines Relevanzkennwerts fOr jeden 
Ergebnisdatensatz E, wobei die soIchermaRen erzeugten Relevanzkennwerte 
dazu dienen sollen, eine konsolidierte und konsistente Ergebnishierarchie 
zwischen den Ergebnisdatensatzen E herzusteilen. Im Ergebnis wird somit dem 
Benutzer eine homogenisierte Ergebnis- oderTrefferliste erzeugt, bei der die als 
relevantest erkannten Ergebnisdatensatze E zuerst gelistet sind. Die Zuordnung 
des jeweiligen Relevanzkennwerts unter ROckgriff auf die Priorisierungsparameter 
P kann dabei insbesondere im Hinblick auf die jeweilige Suchmaschine 2 erfolgen, 
die den betroffenen Ergebnisdatensatz E geliefert hat. Alternativ oder zusStzlich 
kann bei der Zuordnung des Relevanzkennwerts auch ein von der jeweiligen 
Suchmaschine 2 bereitgestellter Ausgangsrelevanzkennwert mit berticksichtigt 
werden. 

Zusatzlich zu den Suchmaschinen 2 ist das Recherchensystem 1 datenseitig mit 
einer Werbemitteldatenbank 20 verbunden. In der Werbemitteldatenbank, auch 
als „Ad-Server" bezeichnet, sind in Form von so genannten ..Banners" 
Werbeelemente hinterlegt, die von der Werbemitteldatenbank 20 in Reaktion auf 
eine eingehende Suchanfrage an das Recherchensystem 1 zuruckgeliefert 
werden. Das Recherchensystem 1 ist dabei derart ausgestaltet, dass die 
Werbemitteldatenbank 20 ausgewShlte und spezifizierte Werbeelemente als 
Antwortdatensatz auf eine eingehende Suchanfrage zurOcksendet, wobei die 
Auswahl und Spezifikation inhalts- oder themenbezogen angepasst an die 
jeweilige Suchanfrage erfolgt. Die Auswahl der zurtickgesandten Werbeelemente 
erfolgt dabei dahingehend, dass das jeweilige Werbeelement inhaltlich oder 
thematisch einen Bezug zur Suchanfrage aufweist, so dass mit einem 
vergleichsweise erhohtem Interesse des Benutzers an dem jeweiligen 
Werbeelement gerechnet werden kann. Zu diesem Zweck ubermittelt das 
Recherchensystem 1 die jeweilige Suchanfrage gemeinsam mit einem 
Kennungssignal an die Werbemitteldatenbank 20, wobei anhand des 
mitgelieferten Kennungssignals die Auswahl mOglicherweise fur den 
Antwortdatensatz geeigneter Werbeelemente vorgenommen wird. 
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Fig. 2 verdeutlicht die beteiligten Komponenten und Aktoren im Bezug auf die 
(Sub)Systemgrenzen. 

Rollenbeschreifoung 
Kunde 

„Kunde" ist jeder Benutzer, der eine Suchanfrage starten kann. 
TSC Filtermanager 

Die Rolle „TSC Filtermanager" beschreibt den Mitarbeiterkreis, in dessen . • 
Verantwortungsbereich die Filterdefinitionen liegen. Dieser Mitarbeiterkreis wertet 
auderdem die Statistikprotokollierung des Recherchensystems aus. 

TSC Admin 

Die Rolle des „Admin" beschreibt den Mitarbeiterkreis, der fur den Betrieb des 
Recherchensystems verantwortlich ist. 

Er administriert die Konfigurationsdatei (tsc.cfg) des Recherchensystems und 
Oberwacht die Fehlerprotokolle (tsc_error.log). 

Beschreibung derexternen Systeme 
Inhalte 

Kurzbeschreibung 

Hier werden Suchergebnisse bereitgestellt, die auf private und Business-Homepa- 
ges zeigen. 
Schnittstelle 

Die Schnittstelle ist analog zur WWW-Suche mit Fast. 
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P4P-Server 
Kurzbeschreibung 

Die Suchergebnisse des Pay4Performance(P4P)-Servers werden hier 

bereitgestellt. 

Schnittstelle 

Die Schnittstelle des GoTo-Suchcenters wird per HTTP-Request (inklusive 
Parameter) angesprochen. Die Ergebnisse werden in XML-Format geliefert 

FAST Suchcenter 
Kurzbeschreibung 

Hier werden internet-weite Suchergebnisse bereitgestellt, die mittels der 
Suchmaschine „AHTheWeb H gefunden wurden. 

Schnittstelle 

Die Schnittstelle des FAST-Suchcenters wird per HTTP-Request (inklusive 
Parameter) angesprochen. Die Ergebnisse werden in XML-Format geliefert. 

Ad-Server 

Kurzbeschreibung 

Der Ad-Server liefert entsprechend der Suchanfrage eine Werbe-Komponente, die 
in die Gesamtdarstellung der Suchergebnisse einfliefit. 

Recherchensystem Prozesse 

In Fig. 3 werden die Prozesse des Recherchensystem in der Obersicht dargestellt 
und der Prozessdurchlauf im „Gut"-FaII beschrieben. 

TSC Konfiguration 

Die Konfiguration des Recherchensystem wird uber Parameter gesteuert, die in 
einer eigenen Datei abgelegt sind. Diese Konfigurationsdatei wird im XML-Format 
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im Dateisystem des Suchcenters abgelegt. Sie kann mif Hilfe eines Standard-Edi- 
tors bearbeitet werden. 

Die geanderte Konfiguration kann nur mit Hiife des Restarts der „TSC Suche" Pro- 
zesse erreicht werden. 



Der Prozess „TSC Konfiguration" beschreibt die notwendigen Arbeitsschritte fur 
die Administration der Konfigurationsdatei des Recherchensystem. 



Rolle 


Aktivitaten 


TSC Admin 


1. Konfiguration (tsc.cfg) editieren 

2. Konfiguration (tsc.cfg) auf alle Produktionssysteme verteilen 

3. „TSC Restart" Prozess durchfiihren 



TSC Ausschlussfilter pflegen 

Die TSC Ausschlussfilter definieren Worte und Phrasen fur die ein Suchstring, 
wenn sie in diesem enthalten sind, fur bestimmte Kanale gesperrt wird. Diese 
Sperrungen sind landesspezifisch und konnen zeitabhangig definiert werden. 
Gewohnlich werden die Filter mit Hilfe einer eigenen Anwendung (der TSC Admin 
Anwendung) gepflegt. Letztendlich ist die Datei der TSC Ausschlussfilter das 
Produkt eines Exports aus der „Filter DB tt und liegt im CSV-Format vor. Diese 
Datei kann ggf. mit einem Standard editor bearbeitet werden. 
Die Aktivierung der geSnderten Filter kann nur mit Hilfe des Restart der W TSC 
Suche" Prozesse erreicht. 

Folgende Arbeitsschritte werden fQr den Prozess „TSC Ausschlussfilter pflegen" 
definiert: 



WO 2004/086251 



18 



PCT/EP2004/002915 



Rolle 


Aktivitaten 


TSC Filtermanager 


1 . Anmelden an der Anwendung „TSC Admin" 

2. Moglichkeit zur Ausfuhrung folgender Aktionen: 

a. Filter Aktivieren 

b. Filter Erstellen 

c. Filter Andern 

d. Filter Loschen 

3. Aktivierung der geanderten Filter 

a. Filterdatei (tsc_filter_table) aus „Filter DB" generieren 

b. Filterdatei (tscjilterjable) auf alle Produktionssysteme 
verteilen 

c. „Sukzessive" Neustart der „TSC Suche" Prozesse 


TSC Restart 

Der „TSC Restart" Prozess kann manuell oder automatisch durch andere Skripte, 
wie z. B. im Kontext der Filteraktivierung, gestartet werden. 


Rolle 


Aktivitaten 


TSC Admin, 

TSC Filtermanager 


1. tsc_restart.sh starten 

a. Starten des tsc__restart.sh auf alien Produktionssystemen 

i. Ermitteln der PIDs aller Prozesse „TSC Suche" 

ii. Sukzessive, zeitversetztes Senden des kill Signals an 
alle Prozesse 



Die tI fast-cgi" Umgebung des Apache Web-Servers sorgt automatisch fOr das Neu- 
starten der vorkonfigurierten Anzahl „TSC Suche" Prozesse. 
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TSC Suchanfrage bearbeiten 

Der Prozess M TSC Suchanfrage bearbeiten" ist der zentrale Prozess, der durch 
das Recherchensystem realisiert wird. 

Der folgende Ablauf skizziert diesen Prozesses auf hoher Ebene. Detailliert wird 
dieser Ablauf spater im Dokument. 



Rolle 


Aktivitaten 


Kunde 


1 . Suche eingeben und abschicken 


TSC Server 
Engine 


2. Suchanfrage entgegennehrnen 

3 Suchstrina lesen 

4. Attribute der Suchanfrage lesen 


BRISBANE- 
Interpreter 


5. Suchstring in elementare Bestandteile zerlegen 

6. Stopp-Wort-Filterung durchfuhren 

7. Suchstring fur die verschiedenen Kanale aufbereiten 


BRISBANE- 
Integrator 


8. Suchanfrage je „Server" starten 

9. Warten auf alle Ergebnisse der Suchanfrage (ggf. Timeout) 

10. Transformation der Ergebnisse (-> XML) 

1 1 . Protokollierung der Statistikinformationen 


TSC 
Server 

Fnninp 


12. Ergebnis zuruckliefem 



Auswertung TSC Statistik 

Die Statistikdatei kann mittels eines Texteditors eingesehen werden oder in 
andere Programme importiert werden, da die Datei im CSV-Format vorliegt. 
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Auswertung TSC Fehlerprotokoll 

Mittels eines Texteditors kann das Fehlerprotokoll eingesehen werden. 



Roll© 


Aktivitaten 


BRISBA 
NE-SC 


tbd. 



TSC PlattformAnalysemodell 
Use-Case-Diagramm, Grobanalyse 

Fig. 4 beschreibt die groben Zusammenhange der am Recherchensystem (TSC) 
beteiligten Akteure und AnwendungsfSIIe. 

Use-Case: TSC Konfiguration 

Der „TSC Admin" erhait die Moglichkeit, die in einer XML-Datei abgelegte 
Konfiguration des Suchcenters einzusehen und zu verSndern. Dazu bedient er 
das Admin-Tool, das auf einem separates nicht zur Produktivumgebung 
gehorenden Rechner lauft. Damit eine geSnderte Konfiguration wirksam wird, ist 
ein Neustart der einzelnen Prozesse notwendig. 

Business Process Diagramm 

Die in Fig. 5 schematisch dargestellte Administration des Recherchensystems be- 
inhaltet verschiedene Aktionen. Dazu zahlen die Anderungen der Ausschlussfilter 
und das Aktivieren der Anderungen. Zur Aktivierung wird ein Script angestofien, 
das die aktuelle Konfiguration auf die Rechner des Produktivsystems kopiert. Im 
Diagramm sind die Rechner des Produktivsystems an der unteren rechten Ecke 
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zu sehen. Der Administrator selbst tritt als „worker" auf und erscheint hier links 
oben im Diagramm. 

Use-Case: TSC Ausschlussfilter pflegen 

Der „TSC Filtermanager" pflegt die Worter, die von der Suche ausgeschlossen 
werden sollen. Diese Worter konnen pro Land (Portal) als auch zeitlich 
eingeschrSnkt definiert werden. 

Nach Anderung der Ausschlussfilter ist jeweils das Recherchensystem (TSC) 
neuzustarten, damit die Anderungen aktiv werden konnen. 

Use-Case: Konflguration und Filter aktivieren 

Die Konfiguration wird mit Hilfe des Admin-Tools vom Admin-Rechner auf alle am 
Suchcenter beteiligten Rechner Qbertragen und dann ein Neustart des Systems 
durchgefuhrt. Durch einen Neustart werden u. a. neue Prozesse gestartet, die 
wahrend ihrer Initialisierung die aktuelle Konfiguration und die Filtertabellen laden. 

Use-Case: TSC Restart 

Das Suchcenter wird mit Hilfe des Admin-Tools neu gestartet. Dabei werden alle 
Prozesse auf alien am Suchcenter beteiligten Rechnem geordnet beendet und 
neugestartet. Ein Neustart ist notwendig, damit Anderungen der Ausschlussfilter 
oder der Konfiguration wirksam werden. 

Use-Case: Suchanfrage bearbeiten 

Der „Kunde" gibt in der Suchmaske des Ein-/Ausgabesystems seinen 
Suchausdruck ein. Dieser kann aus mehreren mit UND-, ODER- und NICHT- 
Operatoren verknupften Wortern bestehen. Dieser Suchausdruck wird nach 
Absenden an die Server-Engine von dieser interpretiert, an die Anforderungen der 
verschiedenen (z. T. externen) Suchmaschinen angepasst und an diese selbst 
geschickt. Unter Berucksichtigung von konfigurierbaren Timeouts werden die 
verschiedenen Suchergebnisse dann zu einer Gesamtansicht integriert und zum 
Browser des Kunden zuriickgeliefert. 
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Use-Case: Auswertung Statistik 

Der „TSC Filtermanager" kann Giber einen Texteditor die Suchbegriffe und 
Verarbeitungszeiten einsehen. Zusatzlich sollen dem Auswerter Moglichkeiten 
bereitgestellt werden, die eine Ad-hoc-Standardauswertung nach noch zu 
definierenden Kriterien ermOglicht. 

Use-Case: Auswertung Fehlerprotokoll 

Der t ,TSC Admin" kann uber einen Texteditor die in einer Textdatei abgelegten 
Fehlermeldungen einsehen. 



Use-Case-Diagramme, Feinanalyse 

In Fig. 6 ist der Ablauf einer Anfrage an die Suchmaschinen schematisch 
dargestellt. „lnterpretierte Anfrage senden" bearbeitet den eintreffenden 
Suchauftrag, passt diesen an die Syntax der beteiligten externen Suchmaschinen 
an und sendet ihn an diese weiter. 

„Ergebnisse Integrieren" empfangt die Suchergebnisse der Suchmaschinen und 
prasentiert sie dem Nutzer im gewGnschten Format. 

Fig. 7 zeigt schematisch den Ablauf einer verteilten Abfrage mit anschlielSendem 
Zusammenfuhren der Ergebnisse. „Ergebnisse sammeln" akkumuliert die von den 
Suchmaschinen eintreffenden Suchergebnisse. Ein Suchergebnis muss innerhalb 
eines konfigurierbaren Zeitlimits (Timeout) eintreffen. ist dem nicht so, wird dies 
als Fehler interpretiert. 

M Errorhandling" Qbernimmt das Protokollieren von Fehlerzustanden in eine 
FehlerdateL 

„Priorisieren" wichtet die von den verschiedenen Suchmaschinen gelieferten 
Ergebnisse nach bestimmten Geschaftsregeln. 

Fehlerbehandelte und priorisierte Suchergebnisse werden n in Ergebnisseite 
integrieren" in das gewQnschte Ausgabeformat QberfQhrt. 
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Der Nutzer/Kunde hat, wie in Fig. 8 dargestellt, zwei Moglichkeiten der Suche. 
Bei „einfach Suchen" kann der Nutzer einen Oder mehrere Suchbegriffe und even- 
tuell Suchoperatoren eingeben, die der FAST-CGI Syntax entsprechen mussen. 

Bei „erweiterter Suche" kann der Nutzer zuerst den Typ des gesuchten 
Webinhalts auswShlen ( Webseite, Bild, Musik etc.). Je nach Inhaltstyp stehen 
dann angepasste Suchoptionen zur VerfUgung. 

Der in Fig. 9 schematisch dargestellte Filter oder Interpreter bekommt zusatzlich 
zu den Konfigurationsdaten den aktuellen „query string". Diese Zeichenkette 
enthalt Parameter und die Suchanfrage des Nutzers. Die Suchanfrage wird 
entsprechend der Filterregeln des jeweiligen Systems (Suchmaschine) modifiziert. 
Ein weiterer Schritt baut aus den jeweiligen „query strings" und einigen 
Parametern eine komplette URL fur die Suchmaschine. Diese URL ist im o. g. 
Diagramm als „Ziel_URL" identifizierbar. 

Moduluberblick 

Das Gesamtsystem unterteilt sich, wie in Fig. 10 gezeigt, im wesentlichen in drei 
Module. Diese werden im Folgenden naher beschrieben. In Interpreter und Inte- 
grator existieren Adapterklassen, die jeweils auf genau ein Zielsystem zugeschnit- 
ten sind. Alle Adapterklassen besitzen einen statischen und einen dynamischen 
Teil. Der statische Teil wird durch Konfigurationsdaten reprasentiert. Der 
dynamische Teil hangt von der jeweiligen Suchanfrage ab. 

Modul Interpreter 

Das Modul BRISBANE-lnterpreter enthalt, wie in Fig. 11 gezeigt, Klassen, die der 
Filterung und sonstiger Aufbereitung der Suchanfragen dienen. Allgemein kann 
man sagen, dass der Interpreter die Basisdaten fur den Integrator bereitstellt. Die 
Funktionalitat der Filterung ist stark vom Zielsystem (Suchmaschine) abhangig 
und verbirgt sich in den entsprechenden Adapterklassen. 
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Modul Integrator 

Die in Fig. 12 gezeigten Klassen im Modul Integrator sind verantwortlich fQr 
Weiterieitung der modifizierten Suchanfragen an die Zielsysteme. Weitere 
Aufgaben des Integrators sind das Zusammenstellen der Suchergebnisse und 
deren Konvertierung von XML in HTML, das Darstellen der Ergebnisseite, sowie 
die Bereitstellung der Statistikdaten. 

Fur jede Anfrage an ein Zielsystem wird eine Instanz der Klasse Request erzeugt. 
Diese Objekte stellen die Kommunikationsschnittstelle zwischeri Suchcenter und 
Zielsystemen dar. 

Die Kommunikation mit den Zielsystemen wird durch den RequestManager 
verwaltet. Er ist jedoch nicht ftir die Darstellung der Ergebnisse verantwortlich. 

Modul Server-Engine 

Dieses in Fig. 13 anhand seiner Klassen gezeigte Modul reprasentiert den 
Hauptprozess des Suchcenters. Er besitzt eine Instanz der Klasse Configuration", 
die den Zugriff auf alle Konfigurationsdaten ermoglicht. Innerhalb des Prozesses 
werden Konfigurationsdaten in unterschiedlichen Strukturen wie z. B. AdapterMap 
abgelegt. 

Die Server-Engine ist auch fQr das Instanziieren von Interpreter und Integrator 
sowie das geordnete Beenden des Prozesse ( bei Eintreffen eines Signals) 
verantwortlich. 

Die Klasse Logging ist for die Protokollierung von Fehlern und Statistikdaten 
verantwortlich. 

Dynamisches Modell 

In Fig. 14 ist das dynamische Verhalten der einzelnen Komponenten und der 
Informationsfluss zwischen ihnen dargestellt. 

Nach dem Start der Suchcenter-Software wird die Konfiguration ausgelesen. Je 
nach Konfiguration werden dann entsprechende Ausschlussfilter und eine 
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landerspezifische XSL-Datei geladen. Der Prozess wartet nun auf eine 
Suchanfrage. Wenn diese eintrifft, wird der Suchausdruck interpreter! In 
Ausschlussflltern vorkommende Worter werden aus der Suchanfrage entfernt. 
Zusatzlich wird die Anfrage an die Syntax der beteiiigten Suchmaschinen 
angepasst Die modifizierten Suchausdriicke werden nun an die Suchmaschinen 
gesendet Abhangig vom Format der zurtickgelieferten Ergebnisse ist eventuell 
eine Transformation in das HTML- Format notwendig (wenn beispielsweise die 
Ergebnisse im XML- Format vorliegen). Die Ergebnisse werden an den Browser 
des Kunden gesendet. 

Der Prozess geht wieder in Warteposition, bis der nachste Request eintrifft. 
Die einzelnen Suchanfragen werden mit Suchausdruck, Zeitstempel und Dauer 
der Verarbeitung in der Statistikdatei t ,tsc_statistics" abgelegt. Zudem werden 
Fehlerzustande wahrend des gesamten Verlaufs in der Datei n tsc_errorJog" 
eingetragen. 

Modul Server Engine 
Initialisierungsphase 

Wahrend der Initialisierung werden, wie in Fig. 15 gezeigt, abhangig von aktiven 
Kanaien, Konfigurationsobjekte und Instanzen aller Adapter erzeugt. Die Kanale 
entsprechen den vorher angesprochenen Channels und reprasentieren ein ganz 
bestimmtes Zielsystem. 

Verarbeitung einer Suchanfrage 

Bei Eintreffen eines Requests werden, wie in Fig. 16 dargestellt, Instanzen von 
Interpreter und Integrator angelegt. Alle notwendigen Informationen fur die 
Intanzen werden von der Server-Engine bereitgestellt. Der Interpreter bereitet nun 
die Modifikationen der Suchanfrage vor, der Integrator sendet diese an die 
Zielsysteme und liefert die formatierten Suchergebnisse zuruck. Die Instanzen von 
Interpreter und Integrator werden anschlie&end zerstGrt 
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Modul Interpreter 

Der Interpreter veranlasst, wie in Fig. 17 gezeigt, alle fur den Request benotigten 
Adapter, jeweils ein AdapterResult zu erzeugen. Jeder einzelne Adapter 
modifiziert die originale Suchanfrage unter Zuhilfenahme der entsprechenden 
Filterregeln. Diese Suchanfrage und weitere Parameter sind fur das Erzeugen 
eines AdapterResult-Objektes notwendig. Das erzeugte AdapterResult-Objekt 
wird dem Interpreter zurlickgegeben, der es einer Liste hinzufiigt. 

Modul Integrator 

Nach Erzeugung der Integrator-instanz befindet diese sich in einem initialen 
Zustand. Die Verarbeitung der Requests erfolgt durch den Aufruf der Methode 
„doRequests()". 

Main des fast- Programms 

Das Fast-CGI Programm enthalt eine Funktion tl main()". Dieses wird vorn Webser- 
ver aufgerufen. Voraussetzung fur das ordnungsgemalie Arbeiten des Programms 
ist die korrekte Initialisierung und das Eintreten in die Warteschleife. Die Konfigu- 
ration wird in einer Datei gehalten. Die Angabe des kompletten Pfades dieser Da- 
te! erfolgt Qber eine Umgebungsvariable. 

Konfiguration des Recherchensystem 

Das Suchcenter wird Qber eine einzige Datei konfiguriert (tsc.cfg). Diese Datei be- 
findet sich auf einem separaten Rechner, der nicht als Produktivrechner verwen- 
det wird. Die Konfigurationsdatei dient als Vorlage fOr alle Konfigurationsdateien 
pro Rechner in der Produktionsumgebung. Bei Anderungen der Konfiguration 
(z. B.: Modifikation des Verzeichnisses fur die Statistikdateien) wird die Konfigura- 
tionsdatei auf dem aufterhalb des Produktivsystems befindlichen Rechner modifi- 
ziert und per Script auf alle Rechner im Produktivsystem kopiert. 
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Format der Filtertabelle 

Auf Anforderung im Admintool wird aus der Datenbank (mysql) eine aktuelle 
Filterdatei erstellt, die uber die Verteilmechanismen an die Suchcenter-Rechner 
ubertragen wird. 

Diese Filterdatei hat zeilenweise Eintrage, innerhalb einer Zeile sind die Werte 
durch Semikolon getrennt. 

Eine Zeile ist folgendermafien sematisch aufgebaut (Werte in Q sind optional.): 
Landercode; zu filterndes Wort oder Phrase; [Datum Beginn]; Uhrzeit 
Beginn; [Datum Ende]; Uhrzeit Ende; Kanal 1; Kanal 2; ...;Kanal n 

z. B. 

DE;Neu;2000-1 0-1 0;1 2:00:00;2001 -12-31 ;23:35:00;WWW;;;;; 

DE;verboten;2001-10-20;01:00:00;2001-12- 

31;20:00:00;WWW;P4P;BRISBANE;PHP;SP;AD 

UK;Bier;;00:00:00;;00:00:00;WWW;;BRISBANE;;SP; 

CH;Alkohol;2001-09-30;15:00:00;;00:00:00;WWW;;BRISBANE;PHP;; 

Aktivierung von Konfiguration und Filtertabelle 

Die Aktivierung von Konfiguration und Filtertabelle erfolgt durch das Starten von 
Scripts. 

Format der Protokolldatei 

Der Name der Statistikdatei wird in der Konfigurationsdatei (tsc.cfg) angegeben, 
z. B. tsc_statistics_<PID>. <PID> wird dann im Betrieb durch die Prozess-ID 
ersetzt. Da gleichzeitig mehrere Prozesse laufen, gibt es auch dementsprechend 
viele Protokolldateien. 

Alle Statistikdateien liegen in einem zentralen Verzeichnis. 

Diese Statistik-Dateien werden im CSV-Format gespeichert. Zur Auswertung 

existiert ein separater Prozess, der aufgrund des grofcen Datenvolumens auf 
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einem eigens dafur eingerichteten Server laufen sollte. Die Such-Prozesse 
schreiben entweder ihre Daten direkt auf den Auswertungsserver oder der 
Auswertungsprozess sammelt in regelmafiigen Abstanden die Statistik-Daten aller 
Such-Prozesse ein. 

Auffoau der Dafei 

Die Statistik-Datei besteht aus 4 Grundspalten und pro realem Kanal kommen 
weitere 4 Spalten hinzu. 

Grundspalten: 



2. 



1. 



Eingegebene Suchbegriffe 
Uhrzeitder Suche 



3. 



Suchmodus 



4. 



Gesamtzeit in ms oder Timeout 



Spalten pro Kanal: 



1. 



Name 



2. 



verwendete Suchbegriffe 
Zeitdauer in ms oder Timeout 
Anzahl der Ergebnisse 



3. 



4. 



Mengengerust 



Grundspalten ca. 50 Byte 
Kanalspalten je ca. 50 Byte 



Maximallast 500 Anfragen pro Sekunden, ca. 250 Byte pro Anfrage: 

125 KByte pro Sekunde 450 MByte pro Stunde 10,8 GByte pro Tag 
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Format der Fehlerprotokollierung 

Der Name der Fehlerprotokolldatei wird in der Konfigurationsdatei (tsc.cfg) 
angegeben, z. B. tsc_err_<PID>. <PID> wird dann im Betrieb durch die Prozess- 
ID ersetzt. Da gleichzeitig mehrere Prozesse laufen, gibt es auch 
dementsprechend viele Fehlerprotokolldateien. 

Eintrage in das Fehlerprotokoll geschehen zeilenweise. Innerhalb eines Eintrages 
sind die Werte kommasepariert und hatfolgende sematische Bedeutung 
Uhrzeit, Original-URL, angepasste URL, ZeitfQrden reinen Request, Anzahl 
Treffer, Beschreibung des aufgetretenen Fehlers 

z. B.: 

12.10.2001 09:41 :35,http://1 92. 168.70.42:80/fast- 
cgi/ubrtsc?lang=any&q=test&start 
alLanguage=de&context=www,http:/^ 

10&query=test&offset=0,HTTP-Call;145 ms,Total Hits:15737604,ERROR in 
Brisbanelntegrator::getQueryResuIts() , ghttp_process () failed, Error: 
getQueryResults 

Wenn ein allgemeiner Fehler auftritt, wird dieser in der Form, Uhrzeit, 
Beschreibung des aufgetretenen Fehlers protokolliert, z. B. 
12.10.2001 09:41 :35,ERROR in Brisbanelntegrator::initXSLT() 'mpXMLStyleptr: 
xmlParseMemory error\Error: can't initialize xslt-process. Process Exit 

Beschreibung der Stylesheets 

Die XSL-Stylesheets dienen innerhalb des Suchcenters dazu, die gesammelten 
Antworten in XML-Form zu einer HTML-Seite entsprechend der aktuellen 
Layoutvorgaben umzusetzen. Die Daten fur eine Webseite werden dem 
Stylesheet im XML, bzw. durch Stylesheetparameter ubergeben. Pro Sprache 
existiert im Suchcenter ein Stylesheet. Innerhalb des Stylesheets werden die 
Suchergebnisse in HTML aufbereitet sowie die Links fur das Vor- und 
Zuruckblattern erzeugt. Entsprechend den Voreinstellungen wird dann noch die 
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entsprechende Reiterstruktur Dberden Suchergebnissen und die Werbebanner 
bzw. die Formular fur die neue Suche erstellt. 

Administration der Filtertabelle 

Context 

Der Kontext der Admin Anwendung ist in Fig. 18 dargestellf. 
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Bezugszeichenliste 



1 Recherchensystem 

2 Suchmaschinen 

4 zentrale Auswerteeinheit 

6 Integrationsmodul 

8 Speichermodul 

1 0 Distributionsmodul 

12 Pufferspeicher 

14 Speichermodul 

1 6 Filtermodul 

1 8 EirWAusgabemodul . 

20 Werbemitteldatenbank 



E 
P 



Ergebnisdatensatze 
Priorisierungsparameter 
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AnsprOche 

1. Recherchensystem (1) zur Ermittlung von Informationen aus einer Datenbank unter 
5 Nutzung einer Mehrzahl von Suchmaschinen (2) mit einem Integrationsmodul (6), 

das die von den Suchmaschinen (2) gelieferten, jeweils eine Mehrzahl von 
Ergebnisdatensatzen (E) umfassenden Ergebnisdaten in ein gemeinsames 
Datenformat konvertiert und anschlieftend unter Ruckgriff auf in einem 
Speichermodul (8) hinterlegte Priorisierungsparameter (P) jedem 
10 Ergebnisdatensatz (E) einen Relevanzkennwert zuordnet. 

2. Recherchensystem (1 ) nach Anspruch 1 , bei dem die Priorisierungsparameter (P) 

abhangig von der jeweiligen Suchmaschine (2) gewahlt sind. 

is 3. Recherchensystem (1) nach Anspruch 1 Oder 2, dessen Integrationsmodul (6) den 
Relevanzkennwert fur den jeweiligen Ergebnisdatensatz (E) unter 
Berucksichtigung eines von der jeweiligen Suchmaschine (2) bereitgestellten 
Ausgangsrelevanzkennwerts ermittelt. 

2o 4. Recherchensystem (1) nach einem der Ansprtiche 1 bis 3, dessen 

Integrationsmodul (6) Qber ein gemeinsames Pufferspeichermodul (12) mit einem 
Distributionsmodul (10) kommuniziert, das einen im gemeinsamen Datenformat 
eingehenden Suchauftrag fur jede ausgewahlte Suchmaschine (2) in deren 
spezifisches Datenformat umwandelt und anschlieliend an diese ausgibt. 

25 

5. Recherchensystem (1) nach Anspruch 4, dessen Distributionsmodul (10) mit einem 
zweiten Speichermodul (14) verbunden ist, in dem Syntaxdaten fQr die 
Suchmaschinen (2) hinterlegt sind. 



30 6. 



Recherchensystem (1) nach Anspruch 4 oder 5, in dessen Pufferspeichermodul (12) 
ftir einzelne SuchauftrSge charakteristische Identifikationsdaten hinterlegbar sind. 
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7. Recherchensystem (1) nach einem der Ansprtiche 4 bis 6, dessen 

Distributionsmodu! (10) eingangsseitig Qber ein Filtermodul (16) mit einem Ein- 
/Ausgabemodul (18) verbunden ist 

8. Recherchensystem (1) nach einem der Ansprtiche 4 bis 7, dessen 

Distributionsmodu! (10) mit dem Integrationsmodul (6) in eine gemeinsame Einheit 
integriert ist. 

9. Recherchensystem (1 ) nach einem der Ansprtiche 4 bis 8, bei dem das 

Distributions- und das Integrationsmodul (6) datenseitig mit einer 
Werbemitteldatenbank (20) verbunden sind, die als Antwortdatensatz auf eine 
eingehende Suchanfrage einen hinsichtlich eines Kennungssignals an die 
Suchanfrage angepassten Datensatz liefert. 

10. Verfahren zur Ermittlung von Informationen aus einer Datenbank, insbesondere aus 

dem World-Wide-Web, unter Nutzung eines Recherchensystems (1 j nach einem 
der Ansprtiche 1 bis 9, bei dem die von den Suchmaschinen (2) gelieferten, 
jeweils eine Mehrzahl von ErgebnisdatensStzen (E) umfassenden Ergebnisdaten 
in ein gemeinsames Datenformat konvertiert werden, wobei anschliefiend unter 
RQckgriff auf in einem Speichermodul (8) hinterlegte Priorisierungsparameter (P) 
jedem Ergebnisdatensatz (E) einen Relevanzkennwert zugeordnet wird. 

11. Verfahren nach Anspruch 10, bei dem die Priorisierungsparameter (P) abhangig von 

der jeweiligen Suchmaschine (2) gewahlt werden. 

12. Verfahren nach Anspruch 10 oder 1 1, bei dem der Relevanzkennwert fur den 

jeweiligen Ergebnisdatensatz (E) unter Bertlcksichtigung eines von der jeweiligen 
Suchmaschine (2) bereitgestellten Ausgangsrelevanzkennwerts ermittelt wird. 

13. Verfahren nach einem der Ansprtiche 10 bis 12, bei dem ein im gemeinsamen 

Datenformat eingehender Suchauftrag fQr jede ausgewahlte Suchmaschine (2) in 
deren spezifisches Datenformat umgewandelt und anschliefiend an diese 
ausgegeben wird. 
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14. Verfahren nach einem der AnsprOche 10 bis 13, bei dem ein Ober ein Ein- 

/Ausgabemodul (18) vorgegebener Suchauftrag vor seiner weiteren Bearbeitung 
einer Filterung unterzogen wird. 

15. Verfahren nach einem der AnsprOche 10 bis 14, bei dem ein Suchauftrag zus&tzlich 
an eine Werbemitteldatenbank (20) ausgegeben wird, wobei ein von dieser 
eingehender Antwortdatensatz mittels eines Kennungssignals der jeweiligen 
Suchanfrage zugeordnet wird. 
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